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摘要 
本 文 提出 一 个 名 为 对 焦 分 类 的 线性 分 类 方法 ， 尝 试 替 代 经 典 的 逻辑 回归 。 对 焦 分 类 能 和 
从 数学 论证 上 保证 法 向 量 有 界 ， 有 直观 的 几何 解释 ,方便 选取 更 接近 最 优 值 的 参数 初 值 ， 在 寻 
写 数 字 图 像 数据 集 上 的 分 类 正确 率 、 收 敛 速度 均 显 著 优 于 逻辑 回归 ， 参 数 初 值 即使 分 类 正确 率 
达到 了 97.31%. 


This paper proposes a new linear classification method named Focusing Classification, 


m 


with the goal of taking the place of Logistic Regression. Focusing Classification has some 
advantages: length of its normal vector is limited, intuitional geometrical explanation, pa- 
rameters’ initial values are close to the best values. numerical experiments on the MNIST 
dataset demonstrate that Focusing Classification has better performance than Logistic Re- 
gression on length of its normal vector, accuracy and rate of convergence. With initial 


parameter values, Focusing Classification gains an accuracy of 97.31%. 
关键 字 : EIK, WHA, RENA 


1 引言 


逻辑 回归 (Logistic Regression) 是 机 器 学 习 的 一 个 基础 分 类 方法 [1]。 它 形式 简单 ， 有 
LIBLINEAR [2] 这 样 的 现成 工具 库 ， 工 程 实现 方便 ， 在 互联 网 推荐 系统 例如 广告 点 击 预 
测 ， 微 博 消 息 推送 ) 中 有 广泛 的 应 用 。 但 是 ， 风 辑 回归 仍 有 一 些 难 以 完美 解决 的 的 问题 。 
过 拟 合 现象 ， 即 训练 一 段 时 间 以 后 , 随 着 训练 样本 集 上 的 正确 率 逐 渐 提 高 ,测试 样本 上 
的 正确 率 却 不 再 提高 甚至 反而 下 降 。 过 拟 合 的 根本 原因 尚 无 共识 ,目前 的 应 对 办 法 是 在 损失 
函数 中 添加 正则 化 项 [ 引 ， 阻 止 参数 变 得 过 大 ， 至 于 多 大 算是 过 大 ， 没 有 具体 定义 。 
昌 然 正则 化 缓解 了 过 拟 合 现象 ， 但 它 带 来 了 新 的 肪 烦 : 正则 化 系数 的 选择 缺少 理论 指 
导 ， 只 能 针对 具体 训练 样本 多 次 试探 ; 正则 化 还 增加 了 模型 复杂 度 , 求解 最 优化 问题 需要 大 
量 的 技巧 [4-11]. 


Sue 
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参数 初 值 难 选 准 。 逻辑 回归 的 参数 只 有 大 致 的 含义 , 例如 w 代表 各 个 特性 的 权重 ,5b 代 


表 截 距 。 这 些 含义 难以 指导 选 到 最 优 值 附近 的 初 值 ， 通 常 的 做 法 是 随机 选取 初 值 、 预 训练 。 


对 某 个 具体 训练 样本 集 ， 按照 均 匀 分 布 、 正 态 分 布 等 常见 分 布 取 值 ， 尝 试 几 次 , 选用 表现 最 
好 的 分 布 ; 先 在 小 样本 集 上 训练 ,然后 将 得 到 的 最 优 参 数值 用 作 大 样本 集 上 的 初 值 。 这 种 两 


种 方法 都 费时 费力 。 


归 面临 的 困难 ， 同 时 不 显著 降低 分 类 正确 
解 过 拟 合 现象 "的 假设 前 提 下 ， 对 焦 分 类 从 数学 理论 上 保证 分 隔 平面 法 向 量 的 模 长 有 界 ， 从 
而 不 必 再 使 用 正则 化 手段 来 缓解 过 拟 合 现象 ; 对 焦 分 类 有 明确 直观 的 几何 意义 ,方便 为 参数 


选取 较 准 确 的 初 值 。 


本 文 设 计 一 种 名 为 对 焦 分 类 (Focusing Classification) 的 线性 二 分 类 方法 ， 克 服 逻辑 回 


率 ， 尝 试 代替 届 辑 回归 。 在 “不 让 参数 过 大 能 够 组 


本 文 后 续 内 容 这 样 组 织 。 第 2 市 明确 二 分 类 问题 并 提出 线性 可 分 这 个 概念 ， 第 3 市 给 
出 逻辑 回归 的 几何 解释 ， 第 4 市 给 出 对 焦 分 类 的 具体 公式 ， 第 5 市 是 对 焦 分 类 的 几何 解释 ， 
第 6 市 从 数学 上 证 明 法 向 量 有 界 ， 第 7 方 给 出 具体 算法 实现 ， 第 8 节 是 数值 实验 ， 第 9 市 
总 结 全 文 ， 第 10 市 的 附录 证 明 逻 辑 回 归 法 向 量 的 无 限 和 有 界 。 


2 


二 分 类 问题 


给 定数 据 集 D= {(x1; Y1); X2, Y2); (xmy Ym) }, 其 中 d 为 正 整 数 ， 列 向 量 Xi 


正 样本 还 是 负 样本 。 


(Zir; Zi2;..-; Zia), yi € {0,1}. Sy = 1 时 称 x, 是 正 样本 ， 当 y; = 0 时 称 x; 是 负 样 
本 。 二 分 类 问题 是 要 从 数据 集 D 中 学 习 到 一 个 模型 ,然后 用 这 个 模型 预测 任意 的 样本 x; 是 


对 给 定数 据 集 D， 记 列 向 量 w = (wi; w2;.….;Wwa)，C 二 (C1; C2;.….; Caq)。 如 果 存 在 一 个 


d 维 平面 
w (x—c)=0, |w| #0, (1) 
使 得 对 任意 样本 x; € D 有 
Yi = 0, 如 果 w! (x; = c) 0, (2) 
Yi = 1, 如 果 w! (x; = c) > 0, 
或 者 
Yi 一 1, 如 果 wT (x; = c) < 0, (3) 
yi =0, MER wi (x; —c) > 0, 
那么 称 数据 集 D 是 线性 可 分 的 。 下 文 仅 讨 论 式 (2) 的 情形 ， 式 (3) 情形 对 应 的 算法 和 结论 


都 相同 。 
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3 ”逻辑 回归 的 几何 解释 与 初 值 


如 果 用 平面 (1) 来 推测 任意 样本 x; 归属 的 类 别 


那么 (1) 称 为 分 隔 平面 。 如 果 y; = 0， 那 么 推测 x 是 负 样 本 ; 如 果 


yj =1, ABAHEM xj 是 


根据 线性 可 分 的 定义 ,任意 平面 都 可 以 用 做 分 隔 平面 ， 


区 别 


ZN 


是 推测 效果 可 能 不 同 。 式 


(1) 是 分 隔 平 面 的 氮 法 式 方程 ， 由 解析 几何 知道 ， 它 还 有 一 个 等 价 的 斜 截 式 方程 。 


3 逻辑 回归 的 几何 解释 与 初 值 


分 类 方 


教科 书 中 和 常 以 概率 的 角度 讲解 逻辑 回归 。 为 方便 引入 对 外 


的 直观 几何 解释 和 存在 的 初 值 问题 。 


逻辑 回归 的 目标 是 从 样本 集中 学 习 到 分 隔 平 面 的 斜 截 式 方 程 


wix++b=0, 


确定 其 中 的 法 向 量 w MEE b 值 。 为 此 用 到 Sigmoid 函数 


法 , 这 里 给 出 逻辑 回归 


1 
o) = Te 
o(z) MAR WH eee. AS i LIEREAS AN AREAS) UE AL olz) 的 正 负 无 
穷 两 端 ， 对 Vx, D, S z= wx, 十 5， 定 义 单个 样本 x, 上 的 损失 函数 


wje a —o(x)), WF y 


yi=1. 


In(o(%)， 如 
因此 ， 样 本 集 D 上 的 损失 函数 为 
De pede 
求解 它 的 最 小 值 
(WD)} = arg min * 2 i. 
就 得 到 了 最 优 参数 Ww 和 6. 


i = 0, 


(4) 


损失 函数 (2) 能 够 衡量 近似 值 o(%) 与 真实 标签 yi 之 间 的 差距 。 如 图 1 所 示 ， 红 色 


o(%:) 与 yi =1 之 间距 离 ，% BK, o(2) 越 接 近 于 yi- 


曲线 是 Sigmoid 函数 o(zi); 在 xi 为 正 样本 即 yi = 1 时 ， 
U(zi) GRE 


用 右 侧 双向 箭头 标记 的 距离 反映 
F 0 (WA 2 中 红色 | 


3 逻辑 回归 的 几何 解释 与 初 值 


PR 
= 
RE 
Hi 
E 


YA: 近似 值 o(z%)( 红 色 曲 线 ) 与 样本 标签 的 距离 (A RIIE) - 


Zi 


-4 -2 F 2 4 


图 2: 逻辑 回归 : 单个 样本 上 的 损失 函数 1(z;)。 
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4 对 焦 分 类 方法 


线 ) ; 


离 ， Ži 越 小 ， 


在 xi 为 负 样本 即 y; = 0 时 ， 用 左 侧 双 | 


1—o(2;) 越 接近 于 1- yi =1, 


图 2 画 出 了 


本 集 是 线性 可 分 的 ， 那 么 正 相 


的 zi 越 小 ， 


1 个 正 样本 ( 


该 样本 上 的 损失 函 


数值 越 小 。 


红色 ) 和 单个 负 村 


从 而 ， ) 的 计算 结果 是 负 样 


可 箭头 标记 的 距离 反映 


(2) 越 接近 于 0 CLA 2 


a(z) 与 yi = 0 之 间距 
1 Ws £8, HH ZR) © 


A (KE) 的 损失 曲 
EF 本 对 应 的 zi 越 大 ， 该 样本 上 的 


损失 函数 值 越 小 ; 


Bo 直观 地 理解 ， 如果 样 
负 样 本 对 应 


本 向 zi 负 无 穷 方 


向 移动 ， 正 样本 向 2, 正 无 穷 方向 移动 ， 达 到 了 分 类 的 目的 。 

里 然 能 分 离 正 负 样 本 ,但 逻辑 回归 还 有 个 问题 待 解决 : 初 值 难 选 准 。 

附录 中 的 定理 4 知道 ， 样 本 集 D 线性 可 分 时 ， 逮 辑 回归 最 优 分 隔 平面 的 法 向 量 多 的 

模 长 是 +co。 这 意味 着 ， 求 解 式 (4) 的 过 程 中 法 向 量 模 长 趋向 +co， 但 永远 无 法 达到 +00, 
必须 在 适当 的 时 候 结束 迭代 计算 。 那 么 问题 就 来 了 ， 不 知道 结束 迭代 时 法 癌 量 的 模 长 是 多 
少 ， 无 法 为 法 向 量 w 选择 接近 最 优 法 向 量 的 初 值 ， 导 致 计算 量 较 多 。 截 距 b 的 最 优 值 依赖 
于 法 向 量 w， 因 此 也 难 给 它 一 个 较 好 的 初 值 。 

由 附录 中 的 定理 5 知道 ， 样 本 集 D 线性 不 可 分 时 ， 逻 辑 回 归 最 优 分 隔 平 面 的 法 向 量 w 
有 界 。 昌 然 不 再 趋向 于 +00, 但 仍然 无 法 预先 估算 w 的 位 置 。 在 实际 应 用 中 ， 还 会 在 式 (4) 
的 目标 函数 中 添加 正则 化 项 ， 导 致 Ww 的 取 值 更 加 复杂 ， 初 值 更 难 选 准 。 


既然 法 


AJ ETC B 


4 对 焦 分 类 方法 


是 逻辑 回归 初 值 难 选 


的 一 


法 式 混合 


这 里 的 c 是 需要 ] 


有 界 。 逻 辑 回 归 采 用 的 斜 截 式 平 
Ray 乡 式 的 平 
对 焦 变 换 的 


Hl fa Fe 
Baty 


面 方程 (3)， 


个 原因 ， 那 么 就 让 对 焦 分 类 自动 保证 法 向 量 
参数 合 义 不 直观 。 对 焦 分 类 方法 采用 和 斜 截 式 与 
使 各 个 参数 都 有 直观 的 几何 意义 ， 指 导 选 取 较 好 的 初 值 。 


zi = w" (x; — c) +b, 


Go = o(Fo), Gi 一 o(F;). 
定义 4 个 下 标 集合 Io 


,i = 1,2,... 
1,2,...,m}。 
单个 样 


本 xi € D 上 的 损失 函数 定义 为 


JN AVN 


， 满 足 Fo = 


指定 的 任意 向 量 ， w 称 为 法 向 量 ， 实 数 0 和 
法 向 距离 。 定 义 两 个 实数 Fo 7 Fi, 


Py 


(5) 


尔 为 离心 距 ，z; BRA 
H. F, > In(3) = 1.0986. id 


0,2; < Po,i = 1,2,... 
my}, Jo = Tie = 1, z; < Fi, i = 1,2,... 


„mj h = {ily = 0,% 2 


m}, Jo = {ily; = 1, z; > Fı,i = 


1—cos(r(Go — o (2:)), 如 果 ie Ih, 
1 — cos(a (zi) — Go), 如 果 ich, (6) 
1 — cos(G1 — o(z:)), 如 果 i € Jo, 
1 — cos(r(o (zi) -—Gi)), MRie AK. 
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4 对 焦 分 类 方法 


损失 函数 定义 为 


Er 的 取 值 范围 为 [0, 7/(2G1 — 1)]， 


个 典型 值 是 7 = (1 一 Go)/Go。 将 样本 集 D 的 上 


1 m 
b= — >, h(z). (7) 
给 定 锚 点 c， 在 样本 集 D 上 求 损失 函数 式 (7) 的 最 小 值 

{w, b} = arg min H(w, b) (8) 

即 可 得 到 最 优 参数 w 和 5。 然 后， 对 任意 的 样本 xj ， 对 它 做 对 焦 变 换 
z; = Ww" (x; —c) +b, (9) 

用 式 (10) 来 推测 它 是 正 样本 或 是 负 样 本 : 
ER , 
j= f 如 果 Zj < 0, (10) 
1, 如 果 Zj > 0, 


如 果 y; = 0， 那 么 推测 x; 是 负 样 本 ; 如 果 


由 式 (5)(6) Al, FAR ERAS 


使 用 最 速 下 降 法 等 迭代 方法 求 


= 


Mest (8) 时 , 需要 计算 
i 导数 为 


Ry = 1， 那 么 推测 x; 是 正 样本 。 


THOR VI <i<m 和 v1<j<d,， 


—sin[r(Go — o(z,))|ro’(z:), WER y: = 0H. z; < Fo, 
TAE sin(o (zi) — Go)o’(zi), 如 果 yi = 0H. zi > Fo, 
' 一 Sin(G1 — o (zi))o' (zi), WR yi = LH. z; < Fi, 
sin[7(o (z;) G1)|ro’(z), 如 果 Yi = 1H Z; > Fi, 

Ow; Ox Ow;  ôðz pa Ne 

Oh(zi) — Əh(z;) 0% _ Oh(zi) 
Ob Oz, Ob Oz; 
从 而 有 
OH (w, b) b) / 
Dw = 一 》 sin| r(Go — o(z))|ro’ (z)( ) 十 》 sin(o( 0o(%i) — Go)o’ (zi)(x; — €) 


i€ Io 


— > sin(G1 — 0(z;))o'(z) 


tEJo 


CHD) (w, b) = -Y sinfr( 


i€ Io 


— ip sin(G1 — o (z;)) 


i€ Jo 


tel, 


iEJi 


xi —C) )+ >》 sin| r(o(z) 


iEl 


i€EJ1 


— Gi)]ro’(zi) (Xi — ©), 


(11) 


Go — o(%i))]ro (zi )+ > sin(a (z1) 一 Goja (zi) 


(12) 


o'(z;) 十 `> sin[r(o(z;) — G1)|ro’(z). 
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5 对 焦 分 类 的 几何 解释 


本 节 给 出 对 焦 换 式 (5) 


的 概念 。 


EX 1. 对 d 维 平面 n7 (x 一 c) = 二 0 和 d 维 空间 的 任意 点 Xi, M 


5 ”对焦 分 类 的 几何 解释 
的 参数 w、c、 bF z 的 直观 含义 ， 为 此 引入 一 个 解析 几何 


向 距离 ， 称 nz7 (xi 一 c) 为 点 到 平面 的 法 向 距离 。 


析 几 何 知道 ， 如 果 pi > 0， 那 么 点 
x; 在 法 向 n 方向 相反 的 一 侧 ( 
使 用 式 (8) 得 到 的 最 优 参数 w A L 


从 而 6 的 几何 意义 就 是 锚 点 c 到 分 隔 平面 的 法 向 距离 ， 
由 定义 1 知道 ，% = 
说 ， 只 要 法 向 量 w 保持 方向 不 变 ， 
法 向 量 的 模 长 不 能 ; 

实际 计算 时 , 能 从 计算 结 
点 法 式 方程 (14) 中 的 ê- 
(14) 中 的 &。 为 了 保证 唯一 


有 方 可 , 


二 


实数 s 使 得 


出 
A 
S 
Æ- 


式 (15) 知 


以 2 维 样本 为 例 说 


定义 1 知道 ， 法 向 距离 等 


E 离 乘 以 平 画 


Ela] n Fy 


后 ， 


就 得 了 最 优 分 隔 平 


w" (c ô). 


点 x; 
和 做 任意 变化 仍然 表示 同一 


法 向 量 的 模 长 。 
可 的 一 侧 (正面 ) 
Pi = 0, 那么 点 Xi 在 平 


mK) 为 点 到 平面 的 有 


n? (xi 一 c) 7 
E, HAR 


到 分 隔 平面 


这 了 


FE 是 它 的 名 字 离 心 距 的 由 来 。 
(14) 对 分 隔 平 面 来 


ga 


MIRRA Fe (13). 2 


mF 


定 的 情况 下 ， 该 平 
不 妨 假设 c 一 6 与 法 向 量 多 共 


sw = s|W|’, 
b 
引信 | = a)? 
|W 
b w 
|W? 


明 各 个 参数 的 含义 。 对 2 维 样本 ,分 


色 直 线 w7 (x 一 c) = 0 是 迭代 计算 的 起 点 ， 


法 向 量 w ASH c 


IN 


ch, FAE 


定 分 隔 平面 的 
的 上 任意 点 均 可 用 作 式 
共 线 ， 即 存在 非 零 


(16) 
(Bk. 图 3 中 ， 黑 
HEL b 的 初 什 
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5 对 焦 分 类 的 几何 解释 


-0.5 0 0.5 1 


图 3: 对 焦 分 类 中 参数 的 几何 意义 


取 0。 带 箭头 的 黑色 直线 是 法 向 量 w， 两 条 直线 的 交叉 点 是 c。 绿 色 直线 是 迭代 若干 次 之 后 


RUHL Co K c A ê 之 间 
点 c 与 最 优 锚 点 e 之 间 的 距离 。 
现在 考察 对 焦 对 类 方法 的 分 
观察 损失 函数 h(zi) 的 走势 ， 见 图 4, yi = 1 标识 的 曲线 对 应 正 样本 ，yi = 0 标识 的 | 
4 和 式 (6) 可 以 看 出 , Æ r= (1 一 Go)/Go 时 ， 正 负 样 本 的 损失 曲线 关 
曲线 在 焦点 Fi 和 处 的 值 分 别 为 0， 且 有 


X 


| | 


于 纵 轴 轴 对 称 ， 


el 


Zi 一 OO 


从 图 4 可 以 看 出 ， 也 可 以 用 式 (6) 严格 证 明 : 在 ys = OW, h(%i) 在 (一 00, Fo] 严格 


调 递 减 ， 在 [Fo, +00) 严格 单调 递增 ; 在 yi = LIN, Alzi) Æ (—00, Fi] 严格 单调 递减 ， 在 


名 


对 应 负 样本 。 由 


两 条 | 


[Fi, +00) 严格 单调 递增 。 


献 最 小 。 但 是 ， 所 有 正 样 本 的 法 向 距离 2 通常 会 散落 在 一 个 区 间 中 ， 不 会 全 部 落 在 焦点 F 


对 一 个 正 样本 x; 


得 到 的 最 优 分 隔 线 了 (x 一 c) += 0， 带 箭头 的 绿色 直线 是 它 的 法 向 名 ， 两 条 直线 的 交叉 
距离 为 b/|W|， 对 应 式 (16)， 这 意味 着 b 能够 衡量 人 为 指定 的 锚 


类 机 理 。 


lim h(zi) = lim hz.) = lim h(zi) = 1 — cos(G1). 
i= Y= i= 


zi => +00 


2 一 一 Co Zi—> +00 


eat 


来 说 ， 它 的 法 向 距离 2 落 在 焦 上 及 上 时 对 整体 损失 H(w, b) 的 贡 


上 。 因 此 ， 调 整 对 焦 变 换 中 的 参数 使 所 在 正 样本 的 法 向 距离 聚集 在 焦点 玉 附近 ， 就 能 促使 


整体 损失 A (w, b) 3 


整体 损失 Hw, b) 达到 最 小 值 。 
观察 损失 函数 导数 h (2) 的 


达到 最 小 值 。 


同 理 ， 负 样本 的 法 向 距离 集中 在 焦点 Fo 附近 时 ， 也 能 促进 


图 像 ， 见 图 5, 两 条 曲 均 连续 , 焦点 Fo. Fi 之 外 均 光 滑 。 这 
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图 4: 单个 样本 上 的 损失 函数 h(%)， 焦点 Po = —-1.5, F = 1.5, r= (1 一 G0)/Go。 


意味 着 沁 代 过 程 会 平稳 地 收敛 到 最 优点 , 不 会 出 现 前 进 方向 的 跳 变 。 越 靠近 焦点 ,导数 的 绝 
N EBL, KERARI SDE MERLE, RARE. WET IA 
一 ARATE, SRE 0， 这 意味 着 如 果 对 焦 变换 参数 的 初 值 偏离 最 优 值 太 远 ， 那 么 收 
敏 会 很 慢 。 不 过 ， 使 用 时 不 必 担心 这 个 问题 ，7.1 节 给 出 的 方法 能 选 到 接近 最 优 值 的 初 值 。 


WE 
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本 节 证 明 对 焦 变 换 中 的 最 优 法 向 量 w 和 ”是 有 界 的 ， 从 而 不 必 担 心 逻辑 回归 中 出 现 的 
法 向 无 限 问题 。 先 证 明 1 维 样本 的 情 证明 d 维 样本 的 情形 。 


INNS 


6.1 1 维 样本 
© 对 1 维 样本 , 样本 向 量 在 形式 上 就 成 为 xi = (en), 简 记 为 ri Kw = (wi) fi w, 
将 c= (a) 简 记 为 c。 假 设 样本 集 Di = {(£1, y1), (£2, y2),---, (Em, Ym)} 是 线性 可 分 的 ， 即 
存在 一 个 点 ê 使 得 


Yi = L 如 果 Ti > G 


i 二 0， 如 i < Ĉĉ, 
; q AN T C (17) 


Yi = 0, 如 果 £i > 6. 


i 一 1, H Ti < C; 
{ 如 果 (18) 
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这 时 最 优 分 隔 平面 退化 一 个 点 : z = 8。 不 失 一 般 性 ， 
有 样本 zi,i = 1,2,...,m 都 作 一 个 平移 操作 ， 不 影响 


(5) 知 5 = 0， 对 焦 变换 就 成 为 


再 假设 6= 0。 如 果 6 天 0， 只 
ZAH E FA 


Zi 


TT REAR o 


ĉ=0 Hf, W c= ê 


既然 上 已 经 确定 ， 现 在 寻找 最 优 参数 的 工作 只 剩 下 确定 式 (19) 
接 下 来 仅 讨 论 (17) 成 立 的 情形 ，(18) 成 立 的 情形 证 明 方 法 相同 。 


定理 1. 1 维 样本 集 D 线性 可 分 时 ， 对 焦 分 类 最 优 分 隔 平 面 的 法 向 量 有 界 。 


证 : 为 方便 叙述 ， 假 设 


的 最 优 标量 We 


mi +mo < Tmit+mo—l < aii < Lm +1 < 0 < Tı < T2 < nn < Tmi; 


其 中 mo 和 m 为 正 整数 ， 且 满足 Mo +m = mo 


hoo (zi) = l BH 


hoi(%i) = i ee 


hio(z%) = l EAER 


记 


日 zi < Fo, 


H Zi > Fo, 


H. z; < F, 


10 


图 5: 单个 样本 上 的 损失 函数 的 导数 h (z), 焦点 Fo = -1.5, F = 1.5, r= (1 一 Go0)/Go。 


需 对 所 
， 由 式 


(19) 


(20) 
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hlz) = | —cos(r(o(zi)-—Gi)), WR yi = 1H. z > A, (21) 
0, 其 它 情形 ， 
Ho(w) = >》 h(z), Hi(w) = >》_ h(a), (22) 
从 而 式 (7) 变 为 | 
H(w,b) = = [Ho(w) + Hi(w)]. (23) 


在 Wim, < F, Bl w < Fi/£m, 时 ， 由 式 (19)(20)(22) 得 到 


Hy (w) = > hio(wai), Hy(w) = 2; > hio(wai), 
j=l j=l 


X 1 <i< m, zi>0, holwr) <0, 因此 Hi(w)<0, Ai(w) Æ (—00, Fi/tm,] 严格 单 
调 递 减 。 


Hi(w) = > hi(wri), Hi(w)= zi > hi, (wai), 
i=l i=1 


X 1<i< m, zi>0, hi,(wa,)>0, 因此 Hi (w) >0, Ay(w) 在 [Fi /21, 00) 严格 单调 递 


增 。 


综合 Ay(w) Æ w < Fi/tm, 和 也 > 五 /zi 两 种 情形 下 的 单调 性 ， 再 考虑 到 Hi (w) 一 
阶 连续 可 导 ， 可 知 H (w) 的 全 局 最 小 点 w1 落 在 区 间 [FL /tm,, 人 /ri]。 

用 同样 的 方法 可 以 证 明 , Ho(w) 的 全 局 最 小 点 wo 落 在 区 间 [Fo/zxmitmo, Fo/%m,+i)o 由 
式 (23) A, H (w, b) 的 全 局 最 小 点 也 落 在 区 间 (min {Fo /2m,4mo, Fi /@m,}, max{F,/21, Fo/£m +1} 
即 ow AR. 


[证 毕 ] 


6.2 d 维 样本 


借助 法 向 距离 可 了 将 d = 2 维 样本 集 D= {(x1, yı), (Xo, Y2), RAY ri ym)} 上 的 二 分 类 
问题 转化 为 1 维 样本 集 上 的 二 分 类 问题 ， 从 而 完成 证 明 。 


定理 2. d 维 样本 集 线 性 可 分 时 ， 对 焦 分 类 最 优 分 隔 平 面 的 法 向 量 有 界 。 


WE: 假设 d 维 样本 集 D 是 线性 可 分 的 ， 再 假设 将 D 完全 正确 分 类 的 最 优 分 隔 平 面 为 


Wi(x—c)+b=0. (24) 
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[N 


令 单 位 向 量 卫 = W/|wl, pi = n7(xi 一 c) +b, BH p; 是 样本 x; 到 平面 (24) 的 有 向 距离 ， 
羊 本 集 D 上 二 分 类 问题 等 价 了 T 1 维 样本 集 Di = (pi, 41); (p2, y2), cen) (Pm, ym)} 上 的 二 分 
类 问题 ,假设 Di 上 的 对 焦 变换 为 


mt? 


Zi = 和 Di. (25) 
由 定理 1 知 ， 式 (25) 的 最 优 参数 有 界 ， 从 而 样本 集 D 上 的 最 优 法 向 量 WwW = An 有 


(ues 


6.3 ”样本 集 线 性 不 可 分 
通常 情况 下 ， 样 本 集 是 线性 不 可 分 的 ， 即 对 任意 给 定 的 分 隔 平面 ， 其 正面 (或 背面 ) 都 
有 一 些 负 样 本 (或 正 样本 )。 这 种 情形 下 ， 最 优 分 隔 平 面 法 向 量 有 界 的 前 提 条 件 变 得 复杂 。 
观察 图 4 中 的 损失 函数 曲线 ， 猜 测 会 有 一 个 暂 无 证 明 的 模糊 结论 : 
定理 3. d 维 样本 集 D 线性 不 可 分 时 ， 如 果 所 有 正 样本 的 中 心 点 与 所 有 负 样 本 的 中 心 点 显 
著 分 离 ， 那 么 对 焦 分 类 的 最 优 法 向 量 有 界 。 


7 对焦 分 类 的 算法 实现 


本 市 起 ,考虑 一 般 性 的 d > 1 维 样本 集 ， 为 叙述 便利 ,统一 采用 向 量 符号 ,不 再 单独 考 
虑 d=1 的 情 


SS 
o 


7.1 参数 初 值 
用 最 速 下 降 法 等 方法 和 迭 代 求 解 式 (8) 时 , 需要 给 出 式 (5) 中 的 3 个 参数 c、 和 w 的 初 


值 。 


由 图 6 直观 地 看 ， 正 负 样 本 都 是 聚集 在 某 个 区 域 。 由 统计 规律 知道 ， 很 多 随机 事件 服从 
正 态 分 布 。 对 正 态 分 布 而 言 ， 数 学 期 望 是 它 的 中 心 ,， 正 样本 中 心 和 负 样 本 中 心 之 间 的 中 点 应 
该 位 于 分 隔 平面 的 附近 。 定 义 2 个 集合 Ko = {ily =0,1 <i <m} H Kı = {ily = 1,1 < 
i<m}, 将 Ko 和 Ay 中 元 素 的 数量 分 别 记 为 mo 和 m1。 将 正 样 中心 和 负 样 本 中 心 分 别 记 


为 
Si DD Xi, Ho = — 15 Xi, (26) 
liek, 9 EK 
SAM e 可 以 指定 为 
= or (27) 


理想 情况 下 ,c 恰好 落 在 最 优 分 隔 平面 上 ， 此 时 有 c = 6, past (16) 知道 $= 0。 因 此 ， 
的 初 值 应 选 为 


b=0. 


201711.02399v1 


chinaXiv 


7 对 焦 分 类 的 算法 实现 13 
1 . 
0.8 F i 
06r 
0.4 
0.2 
i. 
-0.2 
-0.4 
-0.6 F 
-0.8 F - 
Toa 05 0 05 1 
图 6: 参数 的 初 值 。2 个 五 角 星 分 别 为 正 负 样 本 的 中 心 。 
由 图 4 知 ， 正 负 样 本 会 分 别 聚 集 在 焦点 Fo Fo 附近 ， 因 此 选取 w 的 初 值 使 得 正 样本 的 
心 pa 落 在 焦点 Pa 上 ， 使 得 负 样本 的 中 心 po 落 在 焦点 Fo Ee JPII w 使 得 正 负 样 
本 中 心 同时 落 在 焦点 上 ， 因 此 实际 操作 中 选取 一 个 中 间 值 。 这 个 初 值 几 乎 肯定 不 是 最 优 值 ， 


但 离 最 优 值 不 会 太 远 。 


本 中 心 的 连 线 方向 作为 n 的 方向 ， 即 
n = (pı — Mo)/|H1 — Hol- 


4 bo =n" (pu —c), 6, =n"(m - 0), 


从 而 法 向 量 的 初 值 就 为 


w = An 
o 1 (? | =) Hı 一 Ho 
2\ 6 A) |H- Hol 


7.2 调整 标准 差 


在 实际 应 用 案例 中 ,通常 正 样 本 和 负 样 本 的 方差 不 相等 ， 


为 了 确定 法 疝 量 w 的 初 值 ， 先 确定 其 方向 n, 再 确定 其 模 长 和 ， 即 w = Xn。 用 正 负 样 


(29) 


相差 很 大 ,这 种 差别 导致 


对 焦 分 类 的 分 类 精度 稍 低 于 逻辑 回归 ， 原 因 也 相当 直观 。 


Ee me 
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实际 案例 中 的 样本 集 通 党 是 几乎 线 | 
类 ， 因 而 逻辑 回归 法 向 量 的 模 长 相当 


> 


14 


性 可 分 的 : 只 有 少量 的 样本 《例如 小 于 5%) 被 错误 
大 ， 正 负 样 本 对 应 的 均 远 离 原 点 。 从 图 1 可 以 看 


出 ,在 远离 原点 的 地 方 ,例如 正 无 穷 方 


可 ,不 同样 本 的 损失 阴 数 值 的 差别 很 小 ， 远 小 于 在 原 


点 附近 的 差别 ， 从 而 逻辑 回归 对 方差 差异 不 敏感 。 


对 焦 回归 就 不 一 样 了 ， 大 量 样 本 聚 
此 必须 调整 均衡 。 

利用 (28) 中 的 单位 向 量 n, S pi = 
Ji Po 中 所 有 元 素 的 标准 差 记 为 vo， 将 


>H 


集 在 焦点 附近 ， 样 本 之 间 的 损失 函数 值 差别 大 得 多 ， 


n?x;. LF Po = {pili € Ko}, Pi = {pili € Ko}, 
P, 中 所 有 元 素 的 标准 差 记 为 v1。 定 义 和 常量 标准 差 比 


例 为 
vo/vi, 如 果 vo < v1, 
从 (30) 
v1/Vo, 如 果 wvo > 
记 
ĉo = w i (Koc)+b, & =w" (m — c) +6. (31) 
现在 可 以 对 zi 做 标准 差 修正 了 。 当 vo < vi 时 , 令 
i» Ri € Ko, 
z=" ‘is (32) 
n(zi = £1) T &1, ayes E Kı, 
= Uo > Vy 时 ， 令 
AE n( Eo) + £o 4 0 (33) 
Zis wki E Kı. 


7.3 RHA 


在 后 续 迭 代 计 算 中 ,用 z (ORR PR CTA ARRAREN zio 


这 里 用 最 速 下 降 法 寻找 对 焦 分 类 的 最 优 参数 ， 即 求解 最 小 化 问题 式 (8)。 使 用 其 它 最 优 


法 算法 时 ， 请 参照 实施 。 


步 2， 离 心 距 赋 初 值 : b = 0。 


点 初 值 c = (Ho alr 11)/2。 


BA 1, 获取 数据 : 样本 集 D= {(X1, y1), (X2, Y2); oxy (Xm, Ym) fo 


3, FRA: 使 用 式 (26) AEREE ĠO p 和 Ho， 使 用 式 (27) 得 到 销 


步 4， 指 定 焦点 Fo. Fio WRB CAINE. i 的 取 值 范围 是 (In(3), +co)， 一 个 典型 
值 是 Fi = 1.5; 指定 系数 7 的 值 ， 按 照 第 4 的 规定 ，7 的 取 值 范围 是 [0, 7/(2G1 一 1)], 一 
个 典型 值 是 7 = (1 一 Go)/Go。 指 定 最 速 下 降 法 的 下 降 步 长 s 


Ww 
> 这 


> 


直 可 以 随意 指定 ， 例 如 


5 三 0.1, 但 不 可 太 大 ， 否 则 可 能 导致 迭代 不 收敛 。 指 定 收 敛 羡 值 r+， 这 个 值 也 可 以 随意 指定 


为 一 个 正 数 ， 例 如 7 = 10°. Sik AS k= 0， 损 失 值 Loss0=1。 
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步 5， 法 向 量 赋 初 值 : 用 式 (28) 得 到 单位 向 量 n， 用 式 (29) 给 法 向 量 w 指定 初 值 。 

步 6， 用 式 (30) 计算 标准 差 比例 no 

现在 开始 最 速度 下 降 法 迭代 。 

步 7， 对 样本 集 D 中 的 所 有 样本 作对 焦 变 换 ， 即 用 (5) 计算 zi = w (xi 一 c) +b, i= 
1,2,..., Mo 

步 8， 用 式 (32) 或 (33) 修正 {zli =1,2,...,m} 得 到 {Zli = 1,2,...,m}o 

步 9， 计 算 损 失 函 数值 : 用 z 代替 式 〈7) 中 的 z WE Lossl = H(w,b). W3 Loss0 一 


Lossl < 了， 那么 跳 转 至 步 11; AM, 4 Loss0 = Lossl。 
步 10， 参 数 更 新 ， 使 用 式 (11)(12) 计算 


H 
geyi OO jebi 
Ow 


跳 转 至 步 7。 
步 11, 计算 样本 集 D 上 的 分 类 正确 率 ; 对 任意 样本 xj 用 (9) 计算 zy HER (32) 
或 (33) 做 标准 差 计 整 得 到 z, FASC (10) 推测 样本 x; 是 正 样本 或 负 样本 ; 统计 所 有 样本 的 
推测 结果 ， 得 到 正确 率 。 结 束 。 


8 数值 实验 


对 焦 回归 的 设计 目标 是 解决 逻辑 回归 所 面临 的 问题 ， 因 此 本 节 对 比 二 者 的 分 类 正确 率 、 
初 值 优 劣 、 收 敛 速度 、 法 向 量 模 长 。 
MNIST [12] 数据 库 是 典型 的 分 类 数据 集 ， 它 包含 数字 0-9 的 手写 图 像 ，6 万 个 图 像 用 
于 训练 ,1 万 个 图 像 用 于 测试 。 将 数字 0-9 的 图 像 分 别 抽取 出 来 ， 形 成 10 个 训练 子 集 和 10 
个 测试 子 集 。 
由 MNIST 官网 知道 ， 目 前 还 没有 方法 能 将 MNIST 完全 正确 地 分 类 ， 从 而 可 以 认为 
MNIST 不 是 线性 可 分 的 。 由 定理 5 知道 ， 这 种 情形 下 逻辑 回归 的 法 向 量 有 界 ， 因 此 不 使 用 
正则 化 措施 。 最 速 下 降 法 的 下 降 步 长 指定 为 0.1， 送 代 次 数 设 为 2000， 法 向 量 w 的 每 个 元 
素 都 按照 服从 均匀 分 布 U(—1/784, 1/784) 来 选取 初 值 ， 截 距 b 按照 服从 均匀 分 布 UV(-1,1) 
来 选取 初 值 。 

用 对 焦 分 类 计算 时 ， 指 定 焦点 为 F< 1.5, Fy = -15, r= (1- G0)/Go， 指 定 最 速 下 
降 法 的 下 降 步 长 为 s = 0.1。 


8.1 分 类 正确 率 


用 分 类 正确 的 样本 数量 除 以 样本 总 量 就 得 到 分 类 正确 率 。 逻 辑 回 归 在 训练 集 上 的 正 
率 见 表 1， 正 确 率 均值 为 98.7191%; 逻辑 回归 在 测试 集 上 的 正确 率 见 表 2， 正 确 率 均值 为 
98.6730%. 
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vet 
Hi 
El 


归 在 MNIST Yg EK IE He % 

3 4 5 6 7 8 
99.87 - : = = s 2 2 - 
99.00 99.08 - = $ : = = : 
99.43 99.09 97.38  - > : > : : 
99.65 99.62 98.58 99.46 - 2 3 2 2 
98.10 96.03 98.99  - e = z 
99.21 99.76 98.36 99.48 99.12 98.08 - a 3 
99.69 99.48 98.69 98.69 98.88 99.33 99.86 - = 
99.29 98.21 97.46 97.02 99.26 96.27 98.99 99.06 - 
99.52 99.52 98.80 98.37 96.89 98.70 99.81 95.91 98.24 
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ae 
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N 


Oo ON Do FW Ne 
oO 
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(op) 
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| 


ar 


2: 罗 辑 回归 在 MNIST 测试 集 上 的 正确 率 % 
3 4 5 6 7 8 
99.95 - - = z = . : 2 
99.11 99.31 - - 2 2 = 7 : 
99.75 99.63 97.65 - - - = z = 
99.85 99.91 98.46 99.60 - - - = : 
97.97 96.27 99.20 - - 7 z 
98.97 99.57 98.34 99.39 98.81 98.05 - - - 
99.60 99.21 97.96 98.04 98.91 99.22 99.60 - - 
99.39 98.91 97.31 96.93 99.34 95.82 98.81 98.10 - 
99.30 99.53 98.68 98.27 97.04 98.42 99.69 96.07 97.78 
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[=d] 
TH 
D 
= 
N 


Oo ON Oo FW Ne 
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二 这 些 表格 里 ， 第 1 行 中 的 数字 078 表示 正 样本 对 应 的 数字 ， 第 1 列 中 的 数字 179 表示 

pT 负 样 本 对 应 的 数字 。 十 1 对 角 线 上 的 位 置 表示 正 负 样本 用 同一 个 数字 的 图 像 ， 无 意义 ,不 需 

要 计算 ; 右上 角 部 分 与 左下 角 部 分 对 称 ， 故 不 再 列 出 数值 ， 用 一 代替。 

对 焦 分 类 在 训练 集 上 的 正确 率 见 表 3， 正 确 率 均值 为 为 99.0204%; 对 焦 分 类 在 测试 集 

上 的 正确 率 见 表 4， 正 确 率 均值 为 99.0825%。 
类 正确 率 减 去 逻辑 回归 的 正确 率 ， 得 到 表 5 和 表 6。 在 训练 集 样本 上 和 测试 样 

本 集 上 ， 对 焦 分 类 的 平均 正确 率 比 逻辑 回归 的 平均 正确 率 分 别 高 0.3007% 和 0.4095%。 


| 
Tr 


0 


8.2 MEARE 


逮 辑 回归 的 初始 值 随 机 选取 ， 导 致 初始 正确 率 不 高 ， 见 对 
效 于 随机 推测 样本 是 正 样本 或 是 负 样 本 。 


E 确 率 均 值 为 49.27%, 等 
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表 3: 对 焦 分 类 在 MNIST 训练 集 上 的 正确 率 吧 

负 - 正 | 0 1 2 3 4 5 6 7 8 
1 |99.98 - = = = = = : Í 
2 | 99.34 99.61 - s < z z 2 2 
3 | 99.76 99.68 97.12 - : = = : P 
4 | 99.96 99.88 99.65 99.72 - = = - 
5 |99.77 99.62 98.42 95.80 99.24 - - = 
6 |99.70 99.96 98.51 99.15 99.29 97.99 - = = 
7 |99.98 99.91 99.21 99.31 99.12 99.49 99.89 - - 
8 | 99.67 99.63 98.25 96.44 99.48 98.86 98.34 98.65 - 
9 | 99.72 99.79 99.48 98.95 96.89 98.29 99.79 96.09 98.53 

# 4: 对 焦 分 类 在 MNIST illite EKER” 

负 - 正 1 2 3 4 5 6 7 8 
1 |100.00 - = = 2 i = 
2 | 99.25 99.77 - > r = = 
3 | 99.90 99.86 97.99 - = = 2 = 
4 | 99.95 100.00 99.70 99.80 - = z z = 
5 | 99.79 99.85 98.80 96.90 99.41 - = = 
6 | 99.90 99.90 98.34 99.49 99.28 97.73 - = = 
7 | 99.85 100.00 98.64 98.77 99.30 99.43 99.85 - = 
8 | 99.69 99.86 98.65 96.62 99.39 98.66 98.40 9815 - 
9 | 99.65 99.95 99.41 98.96 97.09 98.32 99.75 96.37 98.34 

表 5: WARP SE IE ZR AS HY 8 VF EAE % IA) 

负 - 正 0 1 2 3 4 5 6 7 8 
1 [01184 - 2 - = = : 3 
2 | 0.3367 0.5354 s > = = 
3 | 0.3318 0.5904 -0.2564 = = = z = 
4 | 0.3060 0.2622 1.0678 0.2673 = - : 
5 | 1.1107 0.1398 0.3164 -0.2251 0.2486 : : : 
6 | 0.4898 0.1975 0.1516 -0.3237 0.1616 -0.0882 = 
7 | 0.2954 0.4305 0.5236 0.6131 0.2478 0.1540 0.0246 = = 
8 | 0.3822 1.4214 0.7875 -0.5759 0.2138 2.5905 -0.6458 -0.4127  - 
9 | 0.2022 0.2679 0.6803 0.5795 O -0.4046 -0.0253 0.1801 0.2881 


8 数值 实验 18 
K 6: 对 焦 分 类 正确 率 减 去 逻辑 回归 正确 率 % (测试 ) 

负 - 正 0 2 3 4 5 6 7 8 
1 0.0473 - = - = = = = 
2 | 0.1491 0.4615 = = - = = - 
3 | 0.1508 0.2331 0.3428 a - : = : 
4 |0.1019 0.0945 1.2413 0.2008 = = 
5 | 0.8013 0.2467 0.8316 0.6309 0.2134 : : - = 
6 | 0.9288 0.3344 0 0.1016 0.4639 -0.3243 = = = 
7 |0.2490 0.7859 0.6796 0.7360 0.3980 0.2083 0.2518 - = 
8 | 0.3071 0.9483 1.3460 -0.3024 0.0511 2.8403 -0.4141 0.0499 = 
9 |0.3519 0.4198 0.7349 0.6934 0.0502 -0.1052 0.0508 0.2946 0.5547 

表 7: 逻辑 回归 在 训练 集 上 的 初始 正确 率 % 

负 - 正 0 1 2 3 4 5 6 7 8 
1 46.77 - - - - - 
2 | 49.85 46.91 = - - = = - - 
3 50.86 47.63 49.28 z - = = = = 
4 | 49.66 46.42 50.49 48.79 - = = - - 
5 52.21 44.57 47.64 46.93 51.87 - : - : 
6 | 45.95 46.75 50.17 49.12 49.68 47.81 = = = 
7 |51.16 51.83 48.74 49.46 48.25 53.61 51.42 = = 
8 | 49.69 46.46 50.45 51.17 49.96 51.91 49.72 48.29 = 
9 50.11 46.88 49.96 49.25 50.07 47.68 49.87 51.29 50.42 
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k 8: 对 焦 分 类 在 训练 集 上 的 初始 正确 率 % 
1 


负 - 正 0 2 3 4 5 6 7 8 
1 99.94 - - - - - - - - 
2 98.23 99.02 - - - - - - - 
3 98.68 99.48 93.56 - - - - - - 
4 99.80 99.66 99.00 99.11 - - - - - 
5 97.97 99.05 96.91 87.27 97.13 - - - - 
6 98.28 99.64 95.36 98.23 97.91 95.96 - - - 
7 99.58 99.71 97.59 98.47 97.60 98.05 99.32 - - 
8 98.71 98.62 96.44 88.94 97.55 96.86 97.33 96.87 - 
9 99.00 99.53 98.29 97.64 89.40 95.88 99.28 92.42 95.86 


表 9: WAR ISSR AY i Eee AS AEE PS 7% 
3 


负 - 正 | 0 1 2 4 5 6 7 8 
1 |-842 - : z r = z 3 = 
2 |-3.89 1247 - 2 i. = = = z 
3 |-5.10 9.52 -1.38 - z : < : : 
4 |-694 549 -6.85 -3.13 - 7 : - - 
5 | -8.83 7.10 -2.26 213 256 - > £ 
6 |-5.05 830 -2.66 -1.09 216 0.53 - z - 
7 |-6.50 6.90 -3.95 -4.31 1.35 -3.18 -1.59 - : 
8 |-4.55 12.35 -4.03 1.50 289 999 049 236 - 
9 |-5.15 5.00 -4.23 -5.05 -4.13 -1.24 -1.41 -0.07 -4.99 


对 焦 回 归 的 初始 值 选择 有 明确 的 理论 指导 ， 导 致 初始 正确 率 较 高 ， 见 表 8， 平 均 为 
97.31%. 
式 (16) 知 ， 锚 点 c 与 最 优 锚 点 6 的 之 间 绝对 距离 为 /| 多 |， 相 对 距离 可 以 用 绝对 中 
H |u 一 HAol/2 之 间 的 比值 表示 ， 即 


2b 
|W] | pr = Hol | 
训练 集 上 的 相对 距离 列 在 表 9， 平 均值 为 -0.3751%， 可 见 锚 点 的 选取 十 分 精 


(34) 


确 。 


8.3 收敛 速度 


用 2 个 指标 来 衡量 收敛 速度 : 达到 最 高 正确 率 的 99% 和 最 高 正确 率 的 99.9% 所 需要 的 
迭代 次 数 。 之 所 以 不 用 达到 最 高 正确 率 所 需 的 迭代 次 数 , 是 因为 在 最 高 上 氮 附近 几乎 都 会 发 生 
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| 
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10: 逻辑 回归 99% 分 位 迭代 次 数 


负 - 正 | 0 1 2 3 4 5 6 7 8 
1 2 = 3 : 2 & « z 
2 96 74 - 2 = = = # = 
3 76 66 12 - = =-  - -& J 
4 2 19 51 34 - > 2 « 3 
5 141 81 93 380 102 - - - z 
6 68 35 269 53 21 120 - - : 
7 24 85 177 143 133 32 2 = = 
8 76 166 216 256 79 469 50 121 - 
9 55 25 101 258 369 122 9 381 271 


表 11: 逻辑 回归 99.9% 分 位 迭代 次 数 

1 2 3 4 5 6 7 8 
268. - = - = = : = 
1275 1222 - z 2 a z z p 
1110 1200 1253 - = - = a 
474 847 1202 970 - 2 2 2 - 
1238 1481 1121 - = 2 - 
1120 1073 1502 1011 745 1487 - À = 
691 1119 1406 1019 1021 1118 335 - : 
1113 1482 1514 1523 1336 1568 1289 1265 - 
800 699 1133 1554 1792 1337 541 1733 1680 
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二 微小 振荡 ， 随 机 性 强 ， 难 以 正确 反映 算法 的 特性 。 
PE 逻辑 回归 的 99% SERRA ER 10， 平 均值 为 122.78; WEI 99.9% 分 位 
迁 代 次 数列 在 表 11， 平 均值 为 1168.02。 
对 焦 分 类 的 99% 分 位 迭代 次 数列 在 表 12， 平 均值 为 23.69; 对 焦 分 类 的 99.9% 分 位 迭 
代 次 数列 在 表 13， 平 均值 为 361.16. 
He 107”13 易 知 ， 对 焦 分 类 的 收敛 速度 比 逻 辑 回 归 快 很 多 。 
逻辑 回归 的 截 距 b 的 初 值 列 在 表 14， 平 均值 为 0.0513; EK 2000 次 之 后 截 距 b 的 终 
值 列 在 表 15， 平 均值 为 0.0941; 可 以 将 截 距 b 的 初 值 与 终 值 差 的 绝对 值 称 为 接近 度 ， 接 近 
度 越 小 越 好 ， 逻 辑 回 归 的 接近 度 均值 为 0.3710。 
对 焦 回 归 的 离心 距 b 初 值 为 0， 和 迭代 2000 次 之 后 离心 距 b 的 值 列 在 表 16， 平 均值 
为 -0.0069， 接 近 度 平均 值 为 0.0737。 与 逻辑 回归 相 比 ， 对 焦 回 归 的 初 值 更 接近 终 值 ， 更 好 。 
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表 12: 对 焦 分 类 99% 分 位 迭代 次 数 
负 - 正 |0 1 2 3 4 5 6 7 8 
1 0 - - Soe Be eS 
2 |2 0 « 2 & £ & € « 
3 2 0 4b = -s = & = ě s 
4 |0 0 0 0 =s = & ‘= -« 
5 |8 0 8 26 17 = = = - 
6 |3 0 108 0 6 16 = = - 
7 10 0 12 0 13 1383 0 «= - 
8 |O 1 16 123 18 25 1 29 - 
9 lo 0 3 6 61 27 0 198 46 
表 13: 对 焦 分 类 99% 分 位 迭代 次 数 
负 - 正 | 0 1 2 3 4 5 6 7 8 
1 0 - - - = - > : : 
2 102 41 : 2 = = ‘ 
3 95 108 325 - = s 
4 19 30 100 69 - - - - - 
5 124 154 51 1709 164 = = = 
6 | 236 134 1303 150 189 44 - = = 
7 |112 55 340 184 1025 731 161 - = 
8 109 99 185 1243 418 296 97 628 - 
9 |285 68 90 691 418 1268 230 1228 774 
K 14: 逻辑 回归 截 距 b 初 值 
负 - 正 0 1 2 3 4 5 6 7 8 
1 .8560 - 要 z = = = s 
2 .2500 -.1306 - a = = = = 
3 | -.2662 -.3966 -.3327 - = = = = = 
4 .4788 .2850 .0470 .8713 2 = = : z 
5 .3807 .6325 -.2973 -.3549 -.9653 - - 
6 9041 -.1027 -.5404 .9929 -.2355 .3973 - - - 
7 |-.7932 -.5697 -.8572 .5080 .0098 -.3679 .2959 - - 
8 |-.8116 .4658 .9810 -.0130 .1991 .9828 .7160 .8654 - 
9 | -.1333 -.4223 -.6506 -.9309 .1562 .8105 .1012 -.1354 -.5732 
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表 15: 逻辑 回归 2000 次 迭代 后 的 截 距 b 
负 - 正 0 1 2 3 4 5 6 7 8 
1 .4280 = = = = = = 3 : 
2 -.1410 .2158 = x = = = = 
3 -.4141  -.0962 .1157 = 3 = - = = 
4 .1230 .3888 .0514 .5935 - - - - 
5 -.8248 .4153 -.7692 -1.0776 -1.2000 : z = - 
6 .4611 .1806 -.0488 .7307 .0464 1.0269 - = : 
7 |-1.1317 -.3160 -.8410 -.1229 -.2266 -.2077 .0680 = = 
8 -.6578 1.0086 1.3943 .6378 .6047 2.5445 .8359 1.3909 = 
9 -.3167 -.2194 -.5657 -.8159 .3086 1.1756 .0268 .5616 -1.1064 
K 16: 对 焦 分 类 2000 次 迭代 后 的 离心 距 b 
负 - 正 0 1 2 3 4 5 6 7 8 
1 |-1480  - 2 = 2 
2 |-.0639 .2044 z 2 - - - - - 
3 | -.0833 .1574 -.0212 = 
4 |-.1123 .1007 -.1024 -.0523 - - - - - 
5 |-.1348 .1247 -.0352 .0285 .0403 = = = 
6 |-.0893 .1416 -.0423 -.0197 .0346 .0089 = = = 
7 |-.1194 .1226 -.0755 -.0772 .0189 -.0531 -.0294 = = 
8 |-.0749 .1900 -.0563 .0212 .0447 .1246 .0086 .0421 = 
9 |-.0926 .0889 -.0756 -.0841 -.0518 -.0187 -.0226 -.0009 -.0772 
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fii 


k 17: PAINA IA) BS 


负 - 正 0 1 2 3 4 5 6 7 8 
.0210 3 z k y - : 5 _ 
.0205 .0204 - - - - : - _ 


.0204 .0207 .0210 - - - - - - 
0205 .0209 .0207 .0201 - - - - - 
0204 .0206 .0208 .0209 - - - - 
.0212 .0200 .0209 .0212 .0208 .0204 - - - 
.0212 .0205 .0211 .0204 .0209 .0204 .0209 - - 
.0202 .0203 .0209 .0209 .0201 .0209 .0203 .0204 - 
.0208 .0209 .0209 .0196 .0204 .0205 .0200 .0202 .0214 
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表 18: 逻辑 回归 2000 次 迭代 后 的 法 向 量 模 长 


负 - 正 0 1 2 3 4 5 6 7 8 
1 2.7713 - = = = = 2 
2 | 3.5602 3.8066 2 - = : = = = 
3 | 3.5543 3.5001 3.6743 = a z : : p 
4 |3.1414 3.2576 3.5991 3.6558 - - - - - 
5 | 4.0163 3.8027 3.7661 4.5227 4.1154 = = : z 
6 | 3.6352 3.4458 4.2158 3.7039 3.7896 3.8219 - E E 
7 |3.2619 3.6135 3.5932 3.5840 4.1163 4.0012 3.3663 - - 
8 | 3.3878 3.8553 3.9169 4.1160 4.0820 4.1455 3.7295 3.8305 - 
9 | 3.2914 3.4038 3.7502 3.8728 5.0291 4.2215 3.5780 4.2077 4.2341 


8.4 法 向 量 模 长 


逻辑 回归 初始 法 向 量 模 长 列 在 表 17， 平 均值 为 0.0206; 逻辑 回归 在 2000 次 迭代 后 的 
法 向 量 模 长 列 在 表 18， 平 均值 为 3.7677。 对 焦 分 类 初始 法 向 量 模 长 列 在 表 19， 平 均值 为 
0.6546; 对 焦 分 类 在 2000 次 迭代 后 的 法 向 量 模 长 列 在 表 20， 平 均值 为 0.6964， 相 对 于 初始 
fA, MIBK TS 6.39% 

观察 这 些 模 长 数据 可 知 ， 逻辑 回归 的 法 向 量 模 长 较 大 ; 对 焦 分 类 的 法 向 量 模 长 较 小 ， 增 
长 缓慢 ， 极 有 可 能 是 有 界 的 ， 文 持 了 定理 3。 
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1 3967 - - - - - - - 
2 5333 .5923 - - - - - - - 
3 5368 .5845 .6829 - - - - - - 
4 4805 .5300 .6338 .5710 - - - - - 
5 6617 .6209 .6628 .9628 .7283 - - - - 
6 .5277 .5280 .7594 .5586 .6998 .6869 - - - 
7 .4724 .5587 .5589 .5735 .7453 .6713 .5296 - - 
8 .5345 .6299 .7802 .8272 .6909 .9666 .6410 .6261 - 
9 4856 .5647 .6077 .6274 1.2074 .7963 .6358 1.0045 .7839 


表 20: 对 焦 分 类 2000 次 迭代 后 的 法 向 量 模 长 
负 正 | 0 1 2 3 4 5 6 7 8 


.5188 .6487 .6314 .6370 - - - - - 
.6214 .6004 .8046 .6716 .7462 .7694 - - - 
.5788 .6618 .7128 .6858 6974 .7457 .6515 - - 
.5867 = .6459 .7270 .7805 .7135 .8035 .7423 .7464 - 
.5815 .6699 .7236 .6969 1.0099 .8020 .6823 .8944 .8078 
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图 7: 逻辑 回归 : A 


样本 损失 函数 的 导数 (zi) o 


9 总 结 


本 文 设计 的 对 焦 分 类 方法 解决 了 逻辑 回归 面临 的 2 个 困难 : 法 向 量 模 长 过 大 、 初 值 不 
住 ,并 提供 了 理论 证 明和 直观 的 几何 解释 性 。 虽 然 无 法 保证 控制 法 向 量 模 长 一 定 能 够 缓解 过 
拟 合 现象 ， 但 仍然 可 以 在 有 过 拟 合 现 象 的 数据 集 测 试 对 焦 分 类 的 表现 。 

后 续 工作 可 以 去 证 明定 理 3， 将 对 焦 分 类 并 行 化 。 


一 < 


10 附录 
为 证 明 逻 辑 回 归 的 法 向 无 限定 理 和 法 向 有 界定 理 ， 先 考查 损失 函数 的 导数 。 
由 式 (3) 得 

o(z:)-1, 如果 y =1. 


IK 


一 上 < I’ (2) < —0.5, 当 z = 0 WY Le) = —0.5; 对 负 样 本 Xio 当 Zi>0 时 0.5 < l (zi) <1, 
当 zi< 0 时 0< l (z) < 0.5, 当 2, = 0 时 l (z) = (0.5% 


定理 4 (法 向 无 限 ). HARD 线性 可 分 时 ， 罗 辑 回 归 最 优 分 隔 平面 的 法 向 量 多 的 模 长 是 
+006 
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10 附录 


WE: 根据 线性 可 分 的 定义 ， 存 在 向 量 w 和 标量 cl Vx; ED W 


令 W2 = 2w], 那么 有 


(可 


Zi2 = wd (xi m c1) = Qwit (x; a C1) = Ziq, 0 = 1,2, ooo M, 


因此 , 对 任意 的 正 整数 1 <i<m, A 


1(zi2) = —In(1 — o (22)) < 一 In(l 一 
i —ln(o(2z;)) < —In(o(zi1)), 


o(zi1)), 如 果 zia <0, 


如 果 za > 0. 


BN L(wo,b) < 工 (wi,b)。 按 照 这 个 每 次 模 长 加 倍 的 方法 推 下 去 ， 就 得 到 | 六 | = 


定理 5 (法 向 有 界 ). 样本 集 D 线性 不 可 分 时 ， 人 带 辑 回归 最 优 分 隔 平 面 的 法 向 量 有 界 。 


WE: 假设 满足 式 (4) 的 最 优 分 隔 平 面 的 点 法 式 方程 为 


w(x = Ci) = 0. 


Gn=W/|w|, 显然 In| = 1。 假设 样本 集 D 线性 不 可 分 


zi = n” (x; — c1) > 0, E. yi = 0, 
或 者 
zi = n" (x; — c1) < 0, H. y,=1 
将 指标 集合 记 为 
In = {ile <<OBRy=0, 1<i< m}, 
h = {ijz > 0 Hy =1, 1<i< ml}, 
Jo = {jlz; >0Hy;=0, 1<j <m}, 
J, = {jz <OB yy =1, 1<j<m}, 
Ko = {klz =0 1<k<m}, 
指标 集合 上 的 损失 函数 分 别 记 为 
Lr(n) = LS la), Ln (n == ies), 
4€ Lo tel 
Lam) = Eie), Laln)= Ds) 
M ET jE 
1 
Lx(n) = m 2 


， 从 而 存在 指标 i 使 得 
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(36) 


(37) 


(38) 
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由 式 (3) 知 ， 
L(n, b) = Lr (n) F Lr, (n) F Ln (n) 十 Ls (n) T Lx, (n). 


由 式 (36)(37) 知 Io UL U Ko 和 JU Ab 是非 空 集合 ,为 论证 方便 ， 这 里 仪 考虑 Io. 
lis Jox Six Ko 均 为 非 空 集合 的 一 般 情形 ， 其 它 特殊 情形 可 做 类 似 证 明 。 
AAD 1 为 正 实数 ,5 为 正 无 完小 量 。 接 下 来 寻找 A 的 取 值 范围 ， 使 得 


L((\ + 6)n, b) — L(Àn, b) 
= L,,((A+6)n) — L;,(An) + Ly,((A+6)n) — Lz,(An) + L,,((A+8)n) 
—L,,(An) + Ly,((A + 6)n) — Ly, (An) + Lx,((A + 6)n) — Lx, (An) (40) 
> 0 
成 立 。 
由 式 (38)(3) 知 ,对 Vk € Ko. 有 其 =0，!((A+6)zx) = (Azk) = In(2)。 由 式 (39) 知 ， 


Lr, ((à + ô)n) — Lx, (An) = 0. (41) 


对 Vi € Jo, Fst (35) A, V(z;) 的 值 从 1/2 严格 单调 递增 至 1， 从 而 有 


1 
ICA + 6)25) = Az) > (N23)6z; > 5425, 


by ((AÀ + ô)n) — La On) > 5 a (42) 


jEJo 


对 Vi E Si, Fst (35) AN, U'(z5) 的 值 从 一 1 严格 单调 递增 至 -1/2， 从 而 有 


1 
I((A + 6)z;) == U(Az;) > 1 (Az; ) 62; > 9945 


Lj, ((A + ôn) — L; (An) > “Ls (43) 
令 
1 
Eo = Oe z- ai(-> a+ > z), 
jEJo jE i€ETo tel 

由 Jo. Tis Jos J, 的 定义 知 Eo > 0。 这 里 需要 假设 Ey < 1， 它 可 以 模糊 地 理解 为 “ 样 
本 集中 被 分 错 的 样本 数量 小 于 被 分 对 的 样本 数量 的 2 倍 "， 显 然 是 一 个 合理 的 假设 。 由 式 
(35) 知 , Æ yi = 0 FY, V(z:) 在 定义 域 (—00,0) 上 的 值 从 0 严格 单调 递增 至 1/2， 因 此 对 
VA > 入 0 = —a~'(Ep) >0 和 Vi € Ío 均 有 U(Az%) < Ego 

对 Vi € Io, 由 式 (3)(35) Al 


0 > (A + 8)zi) — Azi) > U (Az) 62%, 
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进而 ,对 YA > Mo 有 


Ly((A + 6)n) — Lr (àn) > 8 XC l (Azi)zi > Eo X zi. (44) 
i€Io i€ Io 
式 (35) 知 , 在 yi = 1 HF, V(2:) 在 定义 域 (0, 十 oo) 上 的 值 从 一 1/2 严格 单调 递增 至 
0， 因 此 对 YA> ài =orid- 丁 )>0 和 Ye 五 有 
— Ep < I’ (Az) <0 
对 We 五 ,由 式 (3)(35) 知 
Ly, ((A+6)n) — Lr (An) > 5 XO Mz) > 一 9Fo 》 2i. (45) 
ie], ich 
综合 式 (40)-(45) 得 知 ， 当 入 > max{r, à} 时 ， 有 
L((A + 6)n, b) — L(An, b) 
0 0 
i€To iEl jEJo JEN 
0 
> 6Eo( >) i 一 22) + Os Zi 一 » zj) 
i€Io S jEJo JEN 
ee j 6 
> jeJ Ži — Deh 27 = DS a)+ “DP g= y z;) 
2 igh Zi + Dien % i€Io i€h 2 jE Jo jEJ 
= 0. (46) 


st (46) 意味 着 L(An, b) 在 A € (max{Ao, A1}, +00) 严格 单调 递增 ， 从 而 最 分 优 分 隔 平 
的 法 向 量 模 长 |w] = An| = 入 < max{Ao, à}, E w 有 界 。 


[证 毕 ] 


参考 文献 


[1] 周志 华 ， 机 器 学 习 ，p57-60， 清 华 大 学 出 版 社 ，2016.4 


[2] https://www.csie.ntu.edu.tw/ cjlin/liblinear/ 


[3] T. Hastie, R. Tibshirani, and J. Friedman. The Elements of Statisti- cal Learning, 
Second Edition: Data Mining, Inference, and Prediction. Springer Series in Statistics. 
Springer, 0002-2009. corr. 3rd edition, Feb. 2009. 


参考 文献 29 


[4] G. Andrew and J. Gao. Scalable training of ll-regularized log-linear models. In Pro- 


10 


11 


12 


ceedings of the 24th international conference on Machine learning, ICML ’07, pages 
33-40, New York, NY, USA, 2007. ACM. 


C.-J. Lin and J. J. Mor e. Newton’s method for large bound-constrained optimization 
problems. SIAM J. on Optimization, 9(4):1100-1127, Apr. 1999. 


C.-J. Lin, R. C. Weng, and S. S. Keerthi. Trust region newton method for logistic 
regression. Journal of Machine Learning Research, 9:627-650, 2008. 


G.-X. Yuan, K.-W. Chang, C.-J. Hsieh, and C.-J. Lin. A comparison of optimiza- 
tion methods and software for large-scale ll-regularized linear clas- sification. J. Mach. 
Learn. Res., 11:3183-3234, Dec. 2010 


S. Perkins and J. Theiler. Online feature selection using grafting. In In In- ternational 
Conference on Machine Learning, pages 592-599. ACM Press, 2003. 


M. J. Streeter and H. B. McMahan. Less regret via online conditioning. CoRR, 
abs/1002.4862, 2010. 


G.-X. Yuan, C.-H. Ho, and C.-J. Lin. An improved glmnet for 11-regularized logistic 
regression. Journal of Machine Learning Research, 13:1999-2030, 2012. 


J. Friedman, T. Hastie, and R. Tibshirani. Regularization paths for gener- alized linear 


models via coordinate descent. Journal of Statistical Software, 33(1):1-22, 2010. 


http: //yann.lecun.com/exdb/mnist / 


